EDA - InfoInstituciones

In [1]:
# -*- coding: utf-8 -*-
"""
Clusters por instituciones
"""
Out[1]:
'\nClusters por instituciones\n'
In [2]:
%%HTML
<script src="require.js"></script>
In [3]:
 # Importar librerías
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from matplotlib.pyplot import figure
import plotly.express as px
import seaborn as sns
import plotly.graph_objects as go
import plotly.io as pio
pio.renderers.default='notebook'

Data

In [4]:
from google.colab import drive
drive.mount('/content/drive/')
Mounted at /content/drive/
In [5]:
%cd /content/drive/My Drive/3BIO-Cluster-DataAnalysis
/content/drive/My Drive/3BIO-Cluster-DataAnalysis
In [6]:
%ls
articulos.csv        Cluster.infoGrupos.csv
Cluster.cluster.csv  Cluster.infoInstituciones.csv
In [7]:
#Data
df = pd.read_csv("Cluster.infoInstituciones.csv")
df
Out[7]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... trabajos_grado integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior
0 A.I.D Biohacking Colombia Avalado 1 2017.0 4.0 0.0 0.0 1.0 1.0 0.0 0.0 ... 0.0 6.0 1.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0
1 Aalborg University No Avalado 1 2012.0 10.0 1.0 3.0 1.0 2.0 4.0 0.0 ... 13.0 13.0 7.0 1.0 0.0 3.0 0.0 0.0 1.0 0.0
2 Abogato Jurídico S.A.S. Avalado 1 2018.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 6.0 0.0 1.0 1.0 2.0 0.0 0.0 0.0 0.0
3 Abya-Ayala No Avalado 1 2014.0 9.0 0.0 0.0 2.0 7.0 0.0 0.0 ... 1.0 1.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0
4 Academia Américana De Psiquiatría No Avalado 1 2008.0 5.0 0.0 0.0 0.0 0.0 12.0 0.0 ... 10.0 40.0 1.0 10.0 1.0 16.0 0.0 0.0 1.0 0.0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1437 Washington State University No Avalado 1 2010.0 31.0 11.0 2.0 0.0 1.0 7.0 0.0 ... 7.0 25.0 6.0 10.0 1.0 8.0 0.0 0.0 3.0 0.0
1438 Yarima Guadua E. U. No Avalado 1 2000.0 141.0 18.0 14.0 14.0 24.0 19.0 0.0 ... 131.0 62.0 10.0 22.0 3.0 20.0 0.0 0.0 6.0 3.0
1439 Yoluka Ong, Fundación De Investigación En Biod... 1 2008.0 25.0 2.0 4.0 7.0 2.0 18.0 0.0 ... 16.0 6.0 1.0 3.0 0.0 2.0 0.0 0.0 2.0 0.0
1440 Zumo Tecnologia Avalado 1 2013.0 0.0 0.0 0.0 0.0 0.0 0.0 11.0 ... 7.0 10.0 0.0 5.0 1.0 4.0 0.0 0.0 2.0 0.0
1441 Zurich S.A. No Avalado 1 2012.0 16.0 6.0 2.0 0.0 3.0 0.0 0.0 ... 2.0 2.0 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0

1442 rows × 22 columns

In [8]:
dfi = pd.read_csv("Cluster.cluster.csv")
dfi
Out[8]:
Unnamed: 0 articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones libros softwares ... doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Instituciones Cluster
0 0 4.0 0.0 0.0 1.0 1.0 0.0 0.0 0.0 0.0 ... 1.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 A.I.D Biohacking Colombia Avalado 1
1 1 10.0 1.0 3.0 1.0 2.0 4.0 0.0 1.0 0.0 ... 7.0 1.0 0.0 3.0 0.0 0.0 1.0 0.0 Aalborg University No Avalado 1
2 2 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 1.0 1.0 2.0 0.0 0.0 0.0 0.0 Abogato Jurídico S.A.S. Avalado 1
3 3 9.0 0.0 0.0 2.0 7.0 0.0 0.0 0.0 0.0 ... 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 Abya-Ayala No Avalado 1
4 4 5.0 0.0 0.0 0.0 0.0 12.0 0.0 0.0 1.0 ... 1.0 10.0 1.0 16.0 0.0 0.0 1.0 0.0 Academia Américana De Psiquiatría No Avalado 1
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1437 1437 31.0 11.0 2.0 0.0 1.0 7.0 0.0 2.0 0.0 ... 6.0 10.0 1.0 8.0 0.0 0.0 3.0 0.0 Washington State University No Avalado 0
1438 1438 141.0 18.0 14.0 14.0 24.0 19.0 0.0 0.0 0.0 ... 10.0 22.0 3.0 20.0 0.0 0.0 6.0 3.0 Yarima Guadua E. U. No Avalado 4
1439 1439 25.0 2.0 4.0 7.0 2.0 18.0 0.0 0.0 0.0 ... 1.0 3.0 0.0 2.0 0.0 0.0 2.0 0.0 Yoluka Ong, Fundación De Investigación En Biod... 1
1440 1440 0.0 0.0 0.0 0.0 0.0 0.0 11.0 0.0 0.0 ... 0.0 5.0 1.0 4.0 0.0 0.0 2.0 0.0 Zumo Tecnologia Avalado 1
1441 1441 16.0 6.0 2.0 0.0 3.0 0.0 0.0 0.0 0.0 ... 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 Zurich S.A. No Avalado 1

1442 rows × 22 columns

In [9]:
clusters = dfi["Cluster"]
In [10]:
dfm = df.join(clusters) #append 'Cluster' to 'df'
dfm
Out[10]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
0 A.I.D Biohacking Colombia Avalado 1 2017.0 4.0 0.0 0.0 1.0 1.0 0.0 0.0 ... 6.0 1.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 1
1 Aalborg University No Avalado 1 2012.0 10.0 1.0 3.0 1.0 2.0 4.0 0.0 ... 13.0 7.0 1.0 0.0 3.0 0.0 0.0 1.0 0.0 1
2 Abogato Jurídico S.A.S. Avalado 1 2018.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 6.0 0.0 1.0 1.0 2.0 0.0 0.0 0.0 0.0 1
3 Abya-Ayala No Avalado 1 2014.0 9.0 0.0 0.0 2.0 7.0 0.0 0.0 ... 1.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 1
4 Academia Américana De Psiquiatría No Avalado 1 2008.0 5.0 0.0 0.0 0.0 0.0 12.0 0.0 ... 40.0 1.0 10.0 1.0 16.0 0.0 0.0 1.0 0.0 1
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1437 Washington State University No Avalado 1 2010.0 31.0 11.0 2.0 0.0 1.0 7.0 0.0 ... 25.0 6.0 10.0 1.0 8.0 0.0 0.0 3.0 0.0 0
1438 Yarima Guadua E. U. No Avalado 1 2000.0 141.0 18.0 14.0 14.0 24.0 19.0 0.0 ... 62.0 10.0 22.0 3.0 20.0 0.0 0.0 6.0 3.0 4
1439 Yoluka Ong, Fundación De Investigación En Biod... 1 2008.0 25.0 2.0 4.0 7.0 2.0 18.0 0.0 ... 6.0 1.0 3.0 0.0 2.0 0.0 0.0 2.0 0.0 1
1440 Zumo Tecnologia Avalado 1 2013.0 0.0 0.0 0.0 0.0 0.0 0.0 11.0 ... 10.0 0.0 5.0 1.0 4.0 0.0 0.0 2.0 0.0 1
1441 Zurich S.A. No Avalado 1 2012.0 16.0 6.0 2.0 0.0 3.0 0.0 0.0 ... 2.0 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1

1442 rows × 23 columns

In [11]:
dfm.head(5)
Out[11]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
0 A.I.D Biohacking Colombia Avalado 1 2017.0 4.0 0.0 0.0 1.0 1.0 0.0 0.0 ... 6.0 1.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 1
1 Aalborg University No Avalado 1 2012.0 10.0 1.0 3.0 1.0 2.0 4.0 0.0 ... 13.0 7.0 1.0 0.0 3.0 0.0 0.0 1.0 0.0 1
2 Abogato Jurídico S.A.S. Avalado 1 2018.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 6.0 0.0 1.0 1.0 2.0 0.0 0.0 0.0 0.0 1
3 Abya-Ayala No Avalado 1 2014.0 9.0 0.0 0.0 2.0 7.0 0.0 0.0 ... 1.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0 0.0 1
4 Academia Américana De Psiquiatría No Avalado 1 2008.0 5.0 0.0 0.0 0.0 0.0 12.0 0.0 ... 40.0 1.0 10.0 1.0 16.0 0.0 0.0 1.0 0.0 1

5 rows × 23 columns

In [12]:
dfm.tail(5)
Out[12]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
1437 Washington State University No Avalado 1 2010.0 31.0 11.0 2.0 0.0 1.0 7.0 0.0 ... 25.0 6.0 10.0 1.0 8.0 0.0 0.0 3.0 0.0 0
1438 Yarima Guadua E. U. No Avalado 1 2000.0 141.0 18.0 14.0 14.0 24.0 19.0 0.0 ... 62.0 10.0 22.0 3.0 20.0 0.0 0.0 6.0 3.0 4
1439 Yoluka Ong, Fundación De Investigación En Biod... 1 2008.0 25.0 2.0 4.0 7.0 2.0 18.0 0.0 ... 6.0 1.0 3.0 0.0 2.0 0.0 0.0 2.0 0.0 1
1440 Zumo Tecnologia Avalado 1 2013.0 0.0 0.0 0.0 0.0 0.0 0.0 11.0 ... 10.0 0.0 5.0 1.0 4.0 0.0 0.0 2.0 0.0 1
1441 Zurich S.A. No Avalado 1 2012.0 16.0 6.0 2.0 0.0 3.0 0.0 0.0 ... 2.0 1.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 1

5 rows × 23 columns

Instituciones más productivas en numero de articulos

Top 10

In [13]:
dfm = dfm.sort_values(by=['articulos'], ascending=False)
dfsm = dfm.head(10)
fig = px.pie(dfsm, values='articulos', names='Instituciones')
fig.show()

Analisis de varianza para top 10

Generación de nuevo conocimiento

In [14]:
fig = px.box(dfsm, y=['articulos','capitulos','trabajos_grado'], points="all", color="Cluster")
fig.show()
fig = px.box(dfsm, y=['articulos','capitulos','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [15]:
fig = px.box(dfsm, y=['innovaciones', 'libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(dfsm, y=['innovaciones', 'libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [16]:
dfsm
Out[16]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
1378 Universidad Nacional De Colombia Avalado 621 2003.383253 50978.0 10304.0 5687.0 6429.0 4353.0 13554.0 526.0 ... 19521.0 4836.0 6238.0 620.0 3997.0 354.0 55.0 1007.0 508.0 0
1251 Universidad De Antioquia Avalado 262 2001.950382 27456.0 5957.0 3102.0 2955.0 2251.0 6737.0 290.0 ... 10198.0 2318.0 2735.0 381.0 2455.0 157.0 25.0 500.0 244.0 0
1287 Universidad De Los Andes Avalado 159 2002.893082 15636.0 5813.0 1945.0 1140.0 956.0 5545.0 105.0 ... 3833.0 1489.0 1158.0 81.0 487.0 107.0 20.0 246.0 160.0 0
1331 Universidad Del Valle Avalado 190 2001.926316 13215.0 2467.0 1502.0 1623.0 930.0 2743.0 137.0 ... 4555.0 1459.0 1233.0 121.0 896.0 120.0 24.0 344.0 127.0 0
1070 Pontificia Universidad Javeriana Avalado 112 2001.553571 12520.0 2118.0 1110.0 1257.0 1116.0 4791.0 127.0 ... 3074.0 1023.0 981.0 97.0 433.0 117.0 8.0 231.0 113.0 0
1353 Universidad Industrial De Santander Avalado 91 2001.131868 9872.0 1870.0 975.0 1444.0 674.0 1136.0 429.0 ... 4501.0 826.0 1297.0 152.0 1143.0 88.0 3.0 187.0 94.0 0
1333 Universidad Distrital Francisco José De Caldas... 124 2003.612903 9124.0 724.0 851.0 989.0 682.0 2354.0 66.0 ... 2988.0 726.0 889.0 122.0 601.0 77.0 2.0 168.0 36.0 0
1383 Universidad Pedagógica Y Tecnológica De Colomb... 155 2005.296774 8575.0 698.0 547.0 973.0 495.0 2754.0 285.0 ... 6851.0 940.0 1603.0 333.0 1951.0 74.0 7.0 252.0 33.0 0
1416 Universidad Tecnológica De Pereira Avalado 117 2005.136752 7950.0 994.0 628.0 693.0 402.0 1456.0 150.0 ... 3644.0 616.0 1020.0 121.0 884.0 57.0 0.0 158.0 56.0 0
1261 Universidad De Cartagena Avalado 99 2005.939394 7591.0 1113.0 609.0 1129.0 787.0 1315.0 103.0 ... 3228.0 464.0 535.0 151.0 964.0 44.0 2.0 153.0 52.0 0

10 rows × 23 columns

Clasificacion SJR Q para el Top 10

In [17]:
fig = px.bar(dfsm, y="Instituciones", x= ['SJR_Q_Q1','SJR_Q_Q2','SJR_Q_Q3','SJR_Q_Q4'], title="Clasificacion Articulos en SJR Q",text_auto= True,labels={'x':'Clusters','y':'Articulos'},color_discrete_map={'SJR_Q_Q4':'green'})
fig.update_yaxes(type='category', categoryorder= 'total ascending')
fig.show()

Participación de Clusters

In [18]:
fig = px.pie(dfm.groupby('Cluster').size().reset_index(), values=0, names='Cluster', title="Participación de Clusters")
fig.show()
In [19]:
generacion = dfm.groupby('Cluster').sum().reset_index()[['Cluster','articulos','capitulos', 'innovaciones', 'libros', 'softwares']]
generacion[['articulos','capitulos', 'innovaciones', 'libros', 'softwares']]=generacion[['articulos','capitulos', 'innovaciones', 'libros', 'softwares']].div(generacion[['articulos','capitulos', 'innovaciones', 'libros', 'softwares']].sum(axis=1), axis=0).round(4) * 100
generacion
Out[19]:
Cluster articulos capitulos innovaciones libros softwares
0 0 71.67 22.59 2.15 0.72 2.87
1 1 61.26 28.97 6.02 0.82 2.93
2 2 61.73 27.51 5.16 0.77 4.83
3 3 85.41 13.80 0.36 0.22 0.21
4 4 65.13 22.22 6.78 0.94 4.92
In [20]:
instit = dfm.groupby('Cluster').sum().reset_index()[['Cluster','trabajos_grado', 'integrantes', 'doctorado', 'maestria','Especializacion', 'pregrado']]
instit[['trabajos_grado', 'integrantes', 'doctorado', 'maestria','Especializacion', 'pregrado']]=instit[['trabajos_grado', 'integrantes', 'doctorado', 'maestria','Especializacion', 'pregrado']].div(instit[['trabajos_grado', 'integrantes', 'doctorado', 'maestria','Especializacion', 'pregrado']].sum(axis=1), axis=0).round(4) * 100
instit
Out[20]:
Cluster trabajos_grado integrantes doctorado maestria Especializacion pregrado
0 0 67.08 18.60 4.01 5.70 1.01 3.60
1 1 62.66 21.79 3.07 6.78 1.91 3.80
2 2 67.05 17.90 4.82 6.38 1.00 2.86
3 3 47.36 30.14 5.90 7.88 2.47 6.24
4 4 40.01 35.20 2.61 9.48 5.15 7.56

Participacion Global

In [21]:
fig = px.box(dfm, y=['articulos','capitulos','trabajos_grado'], points="all", color="Cluster")
fig.show()
In [22]:
fig = px.box(dfm, y=['articulos','capitulos','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [23]:
fig = px.box(dfm, y=['innovaciones', 'libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(dfm, y=['innovaciones', 'libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [24]:
dfm = dfm.sort_values(by=['Cluster'], ascending=False)
dfm
Out[24]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
324 Corporación Centro De Desarrollo Tecnologico D... 1 2003.000000 14.0 2.0 1.0 5.0 2.0 0.0 9.0 ... 67.0 2.0 5.0 14.0 35.0 0.0 0.0 0.0 0.0 4
1355 Universidad Interamericana De Puerto Rico, San... 1 2000.000000 132.0 44.0 28.0 6.0 10.0 7.0 0.0 ... 92.0 14.0 17.0 2.0 25.0 0.0 0.0 2.0 0.0 4
513 Escuela Militar De Suboficiales Sargento Inoce... 1 2012.000000 10.0 1.0 0.0 0.0 1.0 10.0 0.0 ... 63.0 2.0 23.0 19.0 11.0 0.0 0.0 2.0 0.0 4
116 Cadena Productiva De Plantas Medicinales Y Aro... 1 2014.000000 3.0 0.0 0.0 0.0 0.0 7.0 0.0 ... 95.0 4.0 38.0 17.0 11.0 1.0 0.0 4.0 0.0 4
1057 Parques Nacionales No Avalado 1 2014.000000 3.0 0.0 0.0 0.0 0.0 7.0 0.0 ... 95.0 4.0 38.0 17.0 11.0 1.0 0.0 4.0 0.0 4
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
506 Escuela De Postgrados De La Fuerza Aérea Colom... 7 2013.857143 93.0 6.0 7.0 6.0 4.0 104.0 2.0 ... 174.0 24.0 58.0 16.0 43.0 4.0 0.0 7.0 1.0 0
1174 T Y C Inversiones Sas Avalado 2 2010.000000 93.0 12.0 10.0 5.0 14.0 15.0 37.0 ... 57.0 3.0 11.0 7.0 7.0 1.0 0.0 2.0 0.0 0
476 Electroporcelana Gamma Avalado 1 2008.000000 9.0 1.0 3.0 2.0 1.0 0.0 1.0 ... 31.0 5.0 8.0 4.0 11.0 1.0 0.0 4.0 0.0 0
586 Fundacion Meditech Avalado 1 2010.000000 92.0 48.0 18.0 10.0 4.0 22.0 0.0 ... 39.0 5.0 4.0 7.0 12.0 2.0 0.0 2.0 0.0 0
1378 Universidad Nacional De Colombia Avalado 621 2003.383253 50978.0 10304.0 5687.0 6429.0 4353.0 13554.0 526.0 ... 19521.0 4836.0 6238.0 620.0 3997.0 354.0 55.0 1007.0 508.0 0

1442 rows × 23 columns

In [25]:
#Pivot table
dups = dfm.pivot_table(index = ['Cluster'], aggfunc ='size') 
dups
  
Out[25]:
Cluster
0    480
1    747
2     67
3     12
4    136
dtype: int64
In [26]:
dups = dups.sort_values(ascending=False)
dups
Out[26]:
Cluster
1    747
0    480
4    136
2     67
3     12
dtype: int64
In [27]:
dups
Out[27]:
Cluster
1    747
0    480
4    136
2     67
3     12
dtype: int64

Cluster 1

In [28]:
df1 = dfm[dfm.Cluster == 1]
df1
Out[28]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
641 Fundación Centro De Excelencia En Sistemas De ... 1 2017.00 12.0 1.0 0.0 2.0 5.0 1.0 1.0 ... 12.0 1.0 8.0 1.0 1.0 0.0 0.0 2.0 1.0 1
426 Corporación Universitaria U De Colombia Avalado 2 2017.00 9.0 0.0 0.0 1.0 0.0 18.0 0.0 ... 18.0 6.0 7.0 3.0 0.0 1.0 0.0 0.0 1.0 1
1157 Soluciones En Energía Renovable, Surfactantes ... 1 1998.00 9.0 2.0 1.0 0.0 0.0 19.0 10.0 ... 22.0 5.0 12.0 2.0 3.0 0.0 0.0 1.0 0.0 1
446 Departamento Administrativo De La Presidencia ... 1 2018.00 9.0 7.0 0.0 0.0 0.0 0.0 0.0 ... 2.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 1
274 Convenio Uptc-Igac No Avalado 1 2011.00 12.0 2.0 1.0 2.0 1.0 0.0 0.0 ... 16.0 1.0 6.0 0.0 2.0 0.0 0.0 1.0 0.0 1
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
297 Corporacion Para El Desarrollo Social Y Cultur... 1 2014.00 37.0 1.0 9.0 3.0 2.0 0.0 0.0 ... 9.0 2.0 4.0 0.0 2.0 0.0 0.0 0.0 1.0 1
811 Hospital Militar Central No Avalado 2 2005.50 50.0 14.0 1.0 1.0 6.0 8.0 0.0 ... 29.0 2.0 12.0 8.0 5.0 1.0 0.0 2.0 0.0 1
951 Instituto Roosevelt No Avalado 1 2007.00 42.0 6.0 1.0 4.0 6.0 9.0 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1
427 Corporación Universitaria Unitec Avalado 4 2008.25 49.0 3.0 2.0 6.0 11.0 64.0 1.0 ... 73.0 17.0 33.0 6.0 5.0 0.0 0.0 1.0 1.0 1
725 Fundación Trópico Vivo Avalado 2 2011.00 49.0 3.0 1.0 5.0 5.0 3.0 0.0 ... 14.0 4.0 5.0 2.0 1.0 1.0 0.0 1.0 0.0 1

747 rows × 23 columns

In [29]:
fig = px.box(df1, y=['articulos','capitulos','trabajos_grado'], points="all", color="Cluster")
fig.show()
fig = px.box(df1, y=['articulos','capitulos','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [30]:
fig = px.box(df1, y=['innovaciones', 'libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(df1, y=['innovaciones', 'libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [31]:
df1 = df1.sort_values(by=['articulos'], ascending=False)
df1s = df1.head(10)
In [32]:
fig = px.pie(df1s, values='articulos', names='Instituciones')
fig.show()

Cluster 0

In [33]:
df0 = dfm[dfm.Cluster == 0]
df0
Out[33]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
1242 Universidad Ces Avalado 36 2005.666667 4255.0 669.0 306.0 520.0 545.0 924.0 30.0 ... 1171.0 210.0 334.0 108.0 220.0 18.0 1.0 64.0 41.0 0
1095 Red De Universidades Públicas Del Eje Cafetero... 1 2003.000000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 34.0 11.0 15.0 1.0 4.0 0.0 0.0 0.0 0.0 0
1411 Universidad Surcolombiana No Avalado 7 2004.571429 335.0 35.0 27.0 22.0 15.0 130.0 0.0 ... 159.0 39.0 61.0 9.0 31.0 2.0 0.0 8.0 0.0 0
353 Corporación Estudiantes Universitarios Y Profe... 1 2007.000000 2.0 0.0 1.0 0.0 0.0 8.0 0.0 ... 26.0 3.0 11.0 5.0 4.0 0.0 0.0 2.0 0.0 0
341 Corporación De Alta Tecnología Para La Defensa... 2 2013.500000 2.0 0.0 0.0 0.0 0.0 1.0 0.0 ... 44.0 1.0 21.0 4.0 11.0 1.0 0.0 5.0 0.0 0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
506 Escuela De Postgrados De La Fuerza Aérea Colom... 7 2013.857143 93.0 6.0 7.0 6.0 4.0 104.0 2.0 ... 174.0 24.0 58.0 16.0 43.0 4.0 0.0 7.0 1.0 0
1174 T Y C Inversiones Sas Avalado 2 2010.000000 93.0 12.0 10.0 5.0 14.0 15.0 37.0 ... 57.0 3.0 11.0 7.0 7.0 1.0 0.0 2.0 0.0 0
476 Electroporcelana Gamma Avalado 1 2008.000000 9.0 1.0 3.0 2.0 1.0 0.0 1.0 ... 31.0 5.0 8.0 4.0 11.0 1.0 0.0 4.0 0.0 0
586 Fundacion Meditech Avalado 1 2010.000000 92.0 48.0 18.0 10.0 4.0 22.0 0.0 ... 39.0 5.0 4.0 7.0 12.0 2.0 0.0 2.0 0.0 0
1378 Universidad Nacional De Colombia Avalado 621 2003.383253 50978.0 10304.0 5687.0 6429.0 4353.0 13554.0 526.0 ... 19521.0 4836.0 6238.0 620.0 3997.0 354.0 55.0 1007.0 508.0 0

480 rows × 23 columns

In [34]:
fig = px.box(df0, y=['articulos','capitulos','trabajos_grado'], points="all", color="Cluster")
fig.show()
fig = px.box(df0, y=['articulos','capitulos','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [35]:
fig = px.box(df0, y=['innovaciones', 'libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(df0, y=['innovaciones', 'libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [36]:
df0 = df0.sort_values(by=['articulos'], ascending=False)
df0h = df0.head()
df0h
Out[36]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
1378 Universidad Nacional De Colombia Avalado 621 2003.383253 50978.0 10304.0 5687.0 6429.0 4353.0 13554.0 526.0 ... 19521.0 4836.0 6238.0 620.0 3997.0 354.0 55.0 1007.0 508.0 0
1251 Universidad De Antioquia Avalado 262 2001.950382 27456.0 5957.0 3102.0 2955.0 2251.0 6737.0 290.0 ... 10198.0 2318.0 2735.0 381.0 2455.0 157.0 25.0 500.0 244.0 0
1287 Universidad De Los Andes Avalado 159 2002.893082 15636.0 5813.0 1945.0 1140.0 956.0 5545.0 105.0 ... 3833.0 1489.0 1158.0 81.0 487.0 107.0 20.0 246.0 160.0 0
1331 Universidad Del Valle Avalado 190 2001.926316 13215.0 2467.0 1502.0 1623.0 930.0 2743.0 137.0 ... 4555.0 1459.0 1233.0 121.0 896.0 120.0 24.0 344.0 127.0 0
1070 Pontificia Universidad Javeriana Avalado 112 2001.553571 12520.0 2118.0 1110.0 1257.0 1116.0 4791.0 127.0 ... 3074.0 1023.0 981.0 97.0 433.0 117.0 8.0 231.0 113.0 0

5 rows × 23 columns

In [37]:
fig = px.pie(df0, values='articulos', names='Instituciones')
fig.show()

Cluster 2

In [38]:
df2 = dfm[dfm.Cluster == 2]
df2
Out[38]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
1134 Sikuani Net S.A.S. Avalado 1 2001.000000 73.0 1.0 0.0 4.0 3.0 25.0 0.0 ... 47.0 12.0 9.0 2.0 12.0 2.0 0.0 2.0 0.0 2
499 Escuela De Aviacion Del Ejercito No Avalado 1 2007.000000 13.0 2.0 1.0 2.0 1.0 30.0 0.0 ... 88.0 11.0 13.0 5.0 20.0 4.0 0.0 6.0 0.0 2
1194 Uam-Uned No Avalado 1 2009.000000 55.0 2.0 3.0 14.0 5.0 107.0 2.0 ... 83.0 27.0 39.0 5.0 6.0 5.0 0.0 8.0 1.0 2
721 Fundación Tecnológica Antonio De Arévalo - Tec... 3 2000.666667 331.0 2.0 10.0 23.0 18.0 167.0 32.0 ... 147.0 52.0 32.0 9.0 16.0 5.0 1.0 8.0 1.0 2
429 Corporación Vidarium, Centro De Investigación ... 1 1999.000000 174.0 54.0 8.0 17.0 40.0 29.0 1.0 ... 95.0 10.0 43.0 5.0 19.0 2.0 0.0 2.0 4.0 2
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
512 Escuela Militar De Cadetes General José María ... 3 2010.333333 139.0 14.0 9.0 10.0 8.0 117.0 4.0 ... 132.0 36.0 50.0 12.0 18.0 10.0 0.0 14.0 3.0 2
505 Escuela De Medicina Juan N. Corpas No Avalado 1 2014.000000 31.0 3.0 0.0 2.0 0.0 48.0 9.0 ... 76.0 21.0 25.0 6.0 7.0 1.0 0.0 9.0 2.0 2
1173 Synergy Research & Development Institute Avalado 1 2012.000000 80.0 21.0 8.0 33.0 9.0 15.0 2.0 ... 50.0 17.0 13.0 2.0 4.0 5.0 1.0 3.0 5.0 2
502 Escuela De Ingenieros Militares Avalado 1 2006.000000 37.0 1.0 3.0 7.0 0.0 7.0 0.0 ... 103.0 10.0 29.0 8.0 9.0 2.0 0.0 3.0 0.0 2
216 Clinica De La Costa No Avalado 1 2001.000000 108.0 6.0 3.0 40.0 35.0 28.0 1.0 ... 31.0 5.0 16.0 6.0 3.0 2.0 0.0 0.0 7.0 2

67 rows × 23 columns

In [39]:
fig = px.box(df2, y=['articulos','capitulos','trabajos_grado'], points="all", color="Cluster")
fig.show()
fig = px.box(df2, y=['articulos','capitulos','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [40]:
fig = px.box(df2, y=['innovaciones', 'libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(df2, y=['innovaciones', 'libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [41]:
df2 = df2.sort_values(by=['articulos'], ascending=False)
df2.head()
Out[41]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
727 Fundación Universidad Del Norte Avalado 42 2001.404762 5531.0 1152.0 650.0 604.0 502.0 1891.0 52.0 ... 1746.0 592.0 548.0 77.0 338.0 73.0 6.0 106.0 80.0 2
1407 Universidad Simón Bolívar Avalado 44 2003.045455 4054.0 676.0 332.0 864.0 716.0 2185.0 415.0 ... 1588.0 402.0 543.0 105.0 278.0 117.0 8.0 121.0 72.0 2
1218 Universidad Autonoma De Manizales Avalado 15 2000.533333 1643.0 108.0 150.0 147.0 143.0 299.0 33.0 ... 892.0 215.0 339.0 53.0 157.0 36.0 3.0 61.0 23.0 2
622 Fundacion Universitaria Konrad Lorenz Avalado 4 2001.750000 608.0 145.0 136.0 140.0 51.0 217.0 0.0 ... 248.0 54.0 71.0 8.0 42.0 16.0 0.0 8.0 7.0 2
877 Institución Universitaria Pascual Bravo Avalado 5 2007.200000 406.0 81.0 109.0 63.0 37.0 84.0 32.0 ... 244.0 44.0 106.0 19.0 34.0 9.0 0.0 23.0 2.0 2

5 rows × 23 columns

In [42]:
df2 = df2.sort_values(by=['articulos'], ascending=False)
df2s = df2.head(10)
fig = px.pie(df2s, values='articulos', names='Instituciones')
fig.show()

Cluster 3

In [43]:
df3 = dfm[dfm.Cluster == 3]
df3
Out[43]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
332 Corporación Centro Internacional De Entrenamie... 1 1990.000000 455.0 229.0 44.0 68.0 7.0 11.0 0.0 ... 131.0 27.0 29.0 4.0 62.0 1.0 1.0 6.0 1.0 3
1143 Sociedad Colombiana De Ciencias Hortícolas No ... 1 1999.000000 480.0 70.0 43.0 63.0 75.0 134.0 1.0 ... 64.0 27.0 16.0 1.0 13.0 3.0 1.0 2.0 5.0 3
896 Instituto Colombiano De Neuropedagogia No Avalado 1 1995.000000 392.0 64.0 32.0 69.0 99.0 69.0 1.0 ... 57.0 18.0 24.0 6.0 5.0 5.0 0.0 1.0 6.0 3
345 Corporación De Innovación Para El Desarrollo D... 1 1986.000000 509.0 180.0 77.0 69.0 40.0 22.0 6.0 ... 109.0 27.0 28.0 4.0 33.0 1.0 1.0 5.0 4.0 3
1352 Universidad Icesi No Avalado 1 1997.000000 933.0 315.0 148.0 155.0 103.0 53.0 2.0 ... 155.0 10.0 31.0 22.0 19.0 3.0 0.0 5.0 1.0 3
633 Fundacion Valle Del Lili Avalado 3 2005.333333 1523.0 452.0 269.0 284.0 198.0 94.0 3.0 ... 198.0 13.0 48.0 24.0 29.0 3.0 0.0 7.0 2.0 3
686 Fundación Instituto De Inmunología De Colombia... 2 1995.500000 749.0 400.0 106.0 26.0 11.0 28.0 6.0 ... 252.0 89.0 68.0 10.0 58.0 5.0 1.0 32.0 8.0 3
84 Asociación Hortifrutícola De Colombia - Asohof... 1 1999.000000 480.0 70.0 43.0 63.0 75.0 134.0 1.0 ... 64.0 27.0 16.0 1.0 13.0 3.0 1.0 2.0 5.0 3
452 Dirección Seccional De Salud De Antioquia No A... 1 1989.000000 413.0 86.0 30.0 74.0 23.0 52.0 11.0 ... 100.0 25.0 26.0 7.0 22.0 2.0 1.0 6.0 7.0 3
916 Instituto De Investigación De Recursos Biológi... 1 2010.000000 442.0 189.0 58.0 53.0 27.0 629.0 0.0 ... 158.0 30.0 70.0 8.0 39.0 2.0 0.0 15.0 1.0 3
333 Corporación Centro Internacional De Entrenamie... 1 1997.000000 933.0 315.0 148.0 155.0 103.0 53.0 2.0 ... 155.0 10.0 31.0 22.0 19.0 3.0 0.0 5.0 1.0 3
197 Centro Internacional Para Prueba De Vacunas Y ... 1 1997.000000 933.0 315.0 148.0 155.0 103.0 53.0 2.0 ... 155.0 10.0 31.0 22.0 19.0 3.0 0.0 5.0 1.0 3

12 rows × 23 columns

In [44]:
fig = px.box(df3, y=['articulos','capitulos','innovaciones','trabajos_grado'], points="all", color="Cluster")
fig.show()
fig = px.box(df3, y=['articulos','capitulos','innovaciones','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [45]:
fig = px.box(df3, y=['libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(df3, y=['libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [46]:
df3 = df3.sort_values(by=['articulos'], ascending=False)
df3.head()
Out[46]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
633 Fundacion Valle Del Lili Avalado 3 2005.333333 1523.0 452.0 269.0 284.0 198.0 94.0 3.0 ... 198.0 13.0 48.0 24.0 29.0 3.0 0.0 7.0 2.0 3
1352 Universidad Icesi No Avalado 1 1997.000000 933.0 315.0 148.0 155.0 103.0 53.0 2.0 ... 155.0 10.0 31.0 22.0 19.0 3.0 0.0 5.0 1.0 3
333 Corporación Centro Internacional De Entrenamie... 1 1997.000000 933.0 315.0 148.0 155.0 103.0 53.0 2.0 ... 155.0 10.0 31.0 22.0 19.0 3.0 0.0 5.0 1.0 3
197 Centro Internacional Para Prueba De Vacunas Y ... 1 1997.000000 933.0 315.0 148.0 155.0 103.0 53.0 2.0 ... 155.0 10.0 31.0 22.0 19.0 3.0 0.0 5.0 1.0 3
686 Fundación Instituto De Inmunología De Colombia... 2 1995.500000 749.0 400.0 106.0 26.0 11.0 28.0 6.0 ... 252.0 89.0 68.0 10.0 58.0 5.0 1.0 32.0 8.0 3

5 rows × 23 columns

In [47]:
df3 = df3.sort_values(by=['articulos'], ascending=False)
df3s = df3.head(10)
fig = px.pie(df3s, values='articulos', names='Instituciones')
fig.show()

Cluster 4

In [48]:
df4 = dfm[dfm.Cluster == 4]
df4
Out[48]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
324 Corporación Centro De Desarrollo Tecnologico D... 1 2003.0 14.0 2.0 1.0 5.0 2.0 0.0 9.0 ... 67.0 2.0 5.0 14.0 35.0 0.0 0.0 0.0 0.0 4
1355 Universidad Interamericana De Puerto Rico, San... 1 2000.0 132.0 44.0 28.0 6.0 10.0 7.0 0.0 ... 92.0 14.0 17.0 2.0 25.0 0.0 0.0 2.0 0.0 4
513 Escuela Militar De Suboficiales Sargento Inoce... 1 2012.0 10.0 1.0 0.0 0.0 1.0 10.0 0.0 ... 63.0 2.0 23.0 19.0 11.0 0.0 0.0 2.0 0.0 4
116 Cadena Productiva De Plantas Medicinales Y Aro... 1 2014.0 3.0 0.0 0.0 0.0 0.0 7.0 0.0 ... 95.0 4.0 38.0 17.0 11.0 1.0 0.0 4.0 0.0 4
1057 Parques Nacionales No Avalado 1 2014.0 3.0 0.0 0.0 0.0 0.0 7.0 0.0 ... 95.0 4.0 38.0 17.0 11.0 1.0 0.0 4.0 0.0 4
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
773 Gobernación Del Cesar No Avalado 2 2011.0 247.0 49.0 49.0 45.0 22.0 9.0 0.0 ... 64.0 2.0 14.0 13.0 16.0 0.0 0.0 2.0 0.0 4
47 Asa Ingenieria Ltda Agua,Suelo Y Aire Ingenier... 1 2005.0 36.0 4.0 8.0 2.0 3.0 19.0 0.0 ... 48.0 1.0 6.0 6.0 20.0 0.0 0.0 1.0 0.0 4
1165 Sub Red Integrada De Servicios De Salud Sur Es... 1 2011.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 64.0 2.0 18.0 5.0 7.0 1.0 0.0 1.0 0.0 4
1204 Unidad De Diagnóstico Y Ecografía Maternofetal... 1 2004.0 26.0 9.0 7.0 0.0 3.0 8.0 0.0 ... 63.0 3.0 11.0 6.0 21.0 2.0 0.0 1.0 0.0 4
1034 New Stetic Avalado 1 2007.0 14.0 2.0 0.0 2.0 2.0 0.0 6.0 ... 46.0 3.0 3.0 6.0 20.0 0.0 0.0 1.0 0.0 4

136 rows × 23 columns

In [49]:
fig = px.box(df4, y=['articulos','capitulos','innovaciones','trabajos_grado'], points="all", color="Cluster")
fig.show()
fig = px.box(df4, y=['articulos','capitulos','innovaciones','trabajos_grado'], points="all", color='Instituciones')
fig.show()
In [50]:
fig = px.box(df4, y=['libros', 'softwares'], points="all", color="Cluster")
fig.show()

fig = px.box(df4, y=['libros', 'softwares'], points="all",color='Instituciones')
fig.show()
In [51]:
df4 = df4.sort_values(by=['articulos'], ascending=False)
df4.head()
Out[51]:
Instituciones grupo year articulos SJR_Q_Q1 SJR_Q_Q2 SJR_Q_Q3 SJR_Q_Q4 capitulos innovaciones ... integrantes doctorado maestria Especializacion pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior Cluster
1126 Servicio Nacional De Aprendizaje Sena Avalado 97 2012.412371 1045.0 103.0 70.0 160.0 75.0 829.0 163.0 ... 4773.0 214.0 1313.0 919.0 887.0 21.0 0.0 135.0 1.0 4
1399 Universidad Santo Tomas Seccional Tunja Avalado 10 2010.200000 783.0 28.0 16.0 31.0 26.0 269.0 43.0 ... 491.0 89.0 210.0 51.0 96.0 7.0 0.0 26.0 1.0 4
484 Empresa Social Del Estado Hospital Universitar... 4 2001.500000 567.0 79.0 48.0 113.0 47.0 123.0 0.0 ... 298.0 11.0 35.0 23.0 73.0 4.0 0.0 9.0 4.0 4
200 Centro Medico Imbanaco De Cali S.A. Avalado 2 2002.000000 403.0 55.0 27.0 54.0 72.0 29.0 2.0 ... 142.0 4.0 27.0 12.0 16.0 0.0 0.0 5.0 1.0 4
394 Corporación Universidad Piloto De Colombia Ava... 6 2002.666667 381.0 29.0 19.0 60.0 17.0 187.0 35.0 ... 395.0 58.0 172.0 46.0 60.0 5.0 0.0 20.0 0.0 4

5 rows × 23 columns

In [52]:
df4 = df4.sort_values(by=['articulos'], ascending=False)
df4s = df4.head(10)
fig = px.pie(df4s, values='articulos', names='Instituciones')
fig.show()

Numero de grupos para las instituciones

In [53]:
df.columns
Out[53]:
Index(['Instituciones', 'grupo', 'year', 'articulos', 'SJR_Q_Q1', 'SJR_Q_Q2',
       'SJR_Q_Q3', 'SJR_Q_Q4', 'capitulos', 'innovaciones', 'libros',
       'softwares', 'trabajos_grado', 'integrantes', 'doctorado', 'maestria',
       'Especializacion', 'pregrado', 'Investigador_Asociado',
       'Investigador_Emerito', 'Investigador_Junior', 'Investigador Senior'],
      dtype='object')
In [54]:
#Pivot table
dups = df.pivot_table(index = ['grupo'], aggfunc ='size') 
dups
Out[54]:
grupo
0        3
1      937
2      167
3       60
4       41
      ... 
155      1
159      1
190      1
262      1
621      1
Length: 68, dtype: int64
In [55]:
dups = dups.sort_values(ascending=False)
dups
Out[55]:
grupo
1      937
2      167
3       60
4       41
5       23
      ... 
48       1
44       1
40       1
32       1
621      1
Length: 68, dtype: int64
In [56]:
ax = dups.plot.kde()
In [57]:
plot = dups.plot.pie(y='grupo', figsize=(5, 5), )

Grupos de investigacion

Data

In [58]:
dfg = pd.read_csv("Cluster.infoGrupos.csv")
dfg
Out[58]:
Codigo del grupo Nombre grupo Lider Avalado Estado Clasificado en link_grupos link_perfiles Instituciones fecha_creacion ... trabajos_grado integrantes doctorado Especializacion maestria pregrado Investigador_Asociado Investigador_Emerito Investigador_Junior Investigador Senior
0 COL0024623 Biotecnologia vegetal Giovanni Orlando Cancino Escalante 1 de 1 Categoría C Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Universidad De Pamplona Avalado Febrero de 2003. ... 38.0 47.0 16.0 1.0 15.0 10.0 4.0 0.0 7.0 0.0
1 COL0137494 Grupo de investigación en agricultura biológica Lucia Ana Diaz Ariza 1 de 2 Categoría C Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Pontificia Universidad Javeriana Avalado Octubre de 2011. ... 54.0 24.0 7.0 0.0 13.0 1.0 1.0 0.0 1.0 1.0
2 COL0102962 Rg microbial ecology: metabolism, genomics & e... Howard Junca Diaz 3 de 5 Grupo reconocido Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Corporación Corpogen No Avalado Enero de 2010. ... 5.0 6.0 4.0 0.0 0.0 1.0 1.0 0.0 3.0 0.0
3 COL0102962 Rg microbial ecology: metabolism, genomics & e... Howard Junca Diaz 3 de 5 Grupo reconocido Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Asociacion Fundacion De Investigacion Microbio... Enero de 2010. ... 5.0 6.0 4.0 0.0 0.0 1.0 1.0 0.0 3.0 0.0
4 COL0102962 Rg microbial ecology: metabolism, genomics & e... Howard Junca Diaz 3 de 5 Grupo reconocido Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Compañia Campo Colombia Avalado Enero de 2010. ... 5.0 6.0 4.0 0.0 0.0 1.0 1.0 0.0 3.0 0.0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7886 COL0155269 Grupo de investigación socio jurídico - gisoju NaN 3 de 6 Categoría C Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Universidad Francisco De Paula Santander Ocaña... Mayo de 2014. ... 34.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
7887 COL0187772 Parrhesía, grupo de investigación en filosofía... NaN 1 de 1 Categoría C Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Universitaria Agustiniana Avalado Diciembre de 2014. ... 33.0 7.0 2.0 0.0 4.0 1.0 0.0 0.0 1.0 0.0
7888 COL0155699 Trabajo social, derechos humanos y desarrollo ... NaN 1 de 2 Grupo reconocido Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Corporacion Universitaria Rafael Nuñez Avalado Enero de 2013. ... 19.0 6.0 0.0 0.0 5.0 0.0 0.0 0.0 0.0 0.0
7889 COL0205253 Investigación e innovación para la educación, ... NaN 1 de 2 Categoría C Convocatoria 833 de 2018 https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Organizacion De Estados Iberoamericanos Oei Av... Enero de 2015. ... 18.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
7890 COL0211751 Grupo de estudios creativos de la universidad ... NaN 1 de 2 Categoría 00 Sin Reconocer https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... Colegio Mayor Nuestra Señora Del Rosario Avalado Diciembre de 2019. ... 0.0 4.0 1.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0

7891 rows × 33 columns

In [59]:
dfg.columns
Out[59]:
Index(['Codigo del grupo', 'Nombre grupo', 'Lider', 'Avalado', 'Estado',
       'Clasificado en', 'link_grupos', 'link_perfiles', 'Instituciones',
       'fecha_creacion', 'lugar_creacion', 'year', 'grupo', 'articulos',
       'SJR_Q_Q1', 'SJR_Q_Q2', 'SJR_Q_Q3', 'SJR_Q_Q4', 'SJR_Q_Sin categoria',
       'capitulos', 'innovaciones', 'libros', 'softwares', 'trabajos_grado',
       'integrantes', 'doctorado', 'Especializacion', 'maestria', 'pregrado',
       'Investigador_Asociado', 'Investigador_Emerito', 'Investigador_Junior',
       'Investigador Senior'],
      dtype='object')
In [60]:
dfg.T
Out[60]:
0 1 2 3 4 5 6 7 8 9 ... 7881 7882 7883 7884 7885 7886 7887 7888 7889 7890
Codigo del grupo COL0024623 COL0137494 COL0102962 COL0102962 COL0102962 COL0007829 COL0031449 COL0029138 COL0001029 COL0008871 ... COL0052252 COL0188072 COL0105347 COL0185169 COL0178915 COL0155269 COL0187772 COL0155699 COL0205253 COL0211751
Nombre grupo Biotecnologia vegetal Grupo de investigación en agricultura biológica Rg microbial ecology: metabolism, genomics & e... Rg microbial ecology: metabolism, genomics & e... Rg microbial ecology: metabolism, genomics & e... Grupo de biotecnología-productos naturales Alimentos y agroindustria Sistemas agrícolas del trópico (sat) Bioprocesos y bioprospección Grupo de investigaciones en ingenieria biomédi... ... Grupo de investigación en diseńo, imagen y com... Grupo de investigación ceinfes Grupo de investigaciones empresariales (grinem) Estudios y análisis del espacio público Diseńo y comunicación audiovisual Grupo de investigación socio jurídico - gisoju Parrhesía, grupo de investigación en filosofía... Trabajo social, derechos humanos y desarrollo ... Investigación e innovación para la educación, ... Grupo de estudios creativos de la universidad ...
Lider Giovanni Orlando Cancino Escalante Lucia Ana Diaz Ariza Howard Junca Diaz Howard Junca Diaz Howard Junca Diaz Oscar Marino Mosquera Martinez Oscar Julian Sanchez Toro Angela Arcila Cardona Dolly Montoya Castano Clara Eugenia Goyes Lopez ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
Avalado 1 de 1 1 de 2 3 de 5 3 de 5 3 de 5 1 de 1 1 de 1 1 de 1 1 de 1 1 de 1 ... 1 de 1 1 de 1 2 de 3 1 de 1 1 de 1 3 de 6 1 de 1 1 de 2 1 de 2 1 de 2
Estado Categoría C Categoría C Grupo reconocido Grupo reconocido Grupo reconocido Categoría B Categoría A1 Categoría A1 Categoría A Categoría A ... Categoría B Categoría C Categoría 00 Categoría C Categoría C Categoría C Categoría C Grupo reconocido Categoría C Categoría 00
Clasificado en Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 ... Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Convocatoria 833 de 2018 Sin Reconocer
link_grupos https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... ... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp...
link_perfiles https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... ... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp... https://scienti.minciencias.gov.co/gruplac/jsp...
Instituciones Universidad De Pamplona Avalado Pontificia Universidad Javeriana Avalado Corporación Corpogen No Avalado Asociacion Fundacion De Investigacion Microbio... Compañia Campo Colombia Avalado Universidad Tecnológica De Pereira Avalado Universidad De Caldas Avalado Corporación Colombiana De Investigación Agrope... Universidad Nacional De Colombia Avalado Universidad Autonoma De Occidente Avalado ... Corporación Universidad De Investigación Y Des... Centro De Investigación Y Formación Para La Ed... Institución Univesitaria Latina Avalado Departamento Administrativo Defensoría Del Esp... Taller Cinco Centro De Diseño Avalado Universidad Francisco De Paula Santander Ocaña... Universitaria Agustiniana Avalado Corporacion Universitaria Rafael Nuñez Avalado Organizacion De Estados Iberoamericanos Oei Av... Colegio Mayor Nuestra Señora Del Rosario Avalado
fecha_creacion Febrero de 2003. Octubre de 2011. Enero de 2010. Enero de 2010. Enero de 2010. Enero de 1996. Enero de 2002. Septiembre de 2004. Febrero de 1995. Enero de 2000. ... Septiembre de 2004. Enero de 2017. Abril de 2010. Enero de 2016. Enero de 2016. Mayo de 2014. Diciembre de 2014. Enero de 2013. Enero de 2015. Diciembre de 2019.
lugar_creacion PAMPLONA / NORTE DE SANTANDER / Centro -... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... CHÍA / CUNDINAMARCA / Centro - Oriente ... CHÍA / CUNDINAMARCA / Centro - Oriente ... CHÍA / CUNDINAMARCA / Centro - Oriente ... PEREIRA / RISARALDA / Región Eje Cafeter... MANIZALES / CALDAS / Región Eje Cafetero... MOSQUERA / CUNDINAMARCA / Centro - Orien... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... CALI / VALLE DEL CAUCA / Región Pacífico... ... BUCARAMANGA / SANTANDER / Centro - Orien... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... CHÍA / CUNDINAMARCA / Centro - Oriente ... OCAÑA / NORTE DE SANTANDER / Centro - Or... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... CARTAGENA DE INDIAS / BOLÍVAR / Región C... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ... BOGOTÁ, D.C. / BOGOTÁ, D. C. / Distrito ...
year 2003 2011 2010 2010 2010 1996 2002 2004 1995 2000 ... 2004 2017 2010 2016 2016 2014 2014 2013 2015 2019
grupo Biotecnologia vegetal Grupo de investigación en agricultura biológica Rg microbial ecology: metabolism, genomics & e... Rg microbial ecology: metabolism, genomics & e... Rg microbial ecology: metabolism, genomics & e... Grupo de biotecnología-productos naturales Alimentos y agroindustria Sistemas agrícolas del trópico (sat) Bioprocesos y bioprospección Grupo de investigaciones en ingenieria biomédi... ... Grupo de investigación en diseńo, imagen y com... Grupo de investigación ceinfes Grupo de investigaciones empresariales (grinem) Estudios y análisis del espacio público Diseńo y comunicación audiovisual Grupo de investigación socio jurídico - gisoju Parrhesía, grupo de investigación en filosofía... Trabajo social, derechos humanos y desarrollo ... Investigación e innovación para la educación, ... Grupo de estudios creativos de la universidad ...
articulos 35.0 18.0 30.0 30.0 30.0 59.0 162.0 203.0 110.0 49.0 ... 15.0 8.0 0.0 6.0 0.0 6.0 16.0 6.0 8.0 1.0
SJR_Q_Q1 0.0 4.0 26.0 26.0 26.0 5.0 26.0 32.0 10.0 7.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 5.0 1.0
SJR_Q_Q2 1.0 3.0 3.0 3.0 3.0 16.0 23.0 14.0 12.0 6.0 ... 0.0 0.0 0.0 1.0 0.0 0.0 1.0 0.0 1.0 0.0
SJR_Q_Q3 5.0 5.0 1.0 1.0 1.0 6.0 30.0 34.0 18.0 6.0 ... 0.0 3.0 0.0 1.0 0.0 2.0 3.0 0.0 1.0 0.0
SJR_Q_Q4 0.0 1.0 0.0 0.0 0.0 6.0 5.0 24.0 5.0 3.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 4.0 0.0 0.0 0.0
SJR_Q_Sin categoria 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 3.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
capitulos 1.0 9.0 7.0 7.0 7.0 6.0 14.0 50.0 10.0 9.0 ... 1.0 30.0 0.0 1.0 2.0 1.0 12.0 4.0 1.0 0.0
innovaciones 0.0 0.0 15.0 15.0 15.0 1.0 6.0 1.0 23.0 5.0 ... 5.0 0.0 12.0 0.0 9.0 0.0 1.0 2.0 0.0 0.0
libros 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
softwares 0.0 0.0 0.0 0.0 0.0 0.0 3.0 3.0 0.0 5.0 ... 12.0 0.0 2.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0
trabajos_grado 38.0 54.0 5.0 5.0 5.0 107.0 119.0 73.0 154.0 132.0 ... 320.0 9.0 39.0 0.0 31.0 34.0 33.0 19.0 18.0 0.0
integrantes 47.0 24.0 6.0 6.0 6.0 49.0 68.0 96.0 104.0 38.0 ... 23.0 0.0 21.0 17.0 0.0 0.0 7.0 6.0 0.0 4.0
doctorado 16.0 7.0 4.0 4.0 4.0 6.0 23.0 20.0 21.0 14.0 ... 3.0 0.0 0.0 1.0 0.0 0.0 2.0 0.0 0.0 1.0
Especializacion 1.0 0.0 0.0 0.0 0.0 0.0 4.0 3.0 1.0 2.0 ... 1.0 0.0 0.0 6.0 0.0 0.0 0.0 0.0 0.0 0.0
maestria 15.0 13.0 0.0 0.0 0.0 8.0 24.0 43.0 29.0 9.0 ... 16.0 0.0 9.0 4.0 0.0 0.0 4.0 5.0 0.0 3.0
pregrado 10.0 1.0 1.0 1.0 1.0 13.0 10.0 18.0 41.0 12.0 ... 2.0 0.0 2.0 2.0 0.0 0.0 1.0 0.0 0.0 0.0
Investigador_Asociado 4.0 1.0 1.0 1.0 1.0 0.0 3.0 4.0 4.0 4.0 ... 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Investigador_Emerito 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Investigador_Junior 7.0 1.0 3.0 3.0 3.0 1.0 11.0 16.0 2.0 7.0 ... 1.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 0.0
Investigador Senior 0.0 1.0 0.0 0.0 0.0 1.0 6.0 1.0 0.0 1.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

33 rows × 7891 columns

In [61]:
dfg.filter(items=['Instituciones', 'Nombre grupo'])
Out[61]:
Instituciones Nombre grupo
0 Universidad De Pamplona Avalado Biotecnologia vegetal
1 Pontificia Universidad Javeriana Avalado Grupo de investigación en agricultura biológica
2 Corporación Corpogen No Avalado Rg microbial ecology: metabolism, genomics & e...
3 Asociacion Fundacion De Investigacion Microbio... Rg microbial ecology: metabolism, genomics & e...
4 Compañia Campo Colombia Avalado Rg microbial ecology: metabolism, genomics & e...
... ... ...
7886 Universidad Francisco De Paula Santander Ocaña... Grupo de investigación socio jurídico - gisoju
7887 Universitaria Agustiniana Avalado Parrhesía, grupo de investigación en filosofía...
7888 Corporacion Universitaria Rafael Nuñez Avalado Trabajo social, derechos humanos y desarrollo ...
7889 Organizacion De Estados Iberoamericanos Oei Av... Investigación e innovación para la educación, ...
7890 Colegio Mayor Nuestra Señora Del Rosario Avalado Grupo de estudios creativos de la universidad ...

7891 rows × 2 columns

In [62]:
dfgi = dfg['Instituciones'].value_counts()
dfgi
Out[62]:
Universidad Nacional De Colombia Avalado                                                             621
Universidad De Antioquia Avalado                                                                     262
Universidad Del Valle Avalado                                                                        190
Universidad De Los Andes Avalado                                                                     159
Universidad Pedagógica Y Tecnológica De Colombia Avalado                                             155
                                                                                                    ... 
SL Avalado                                                                                             1
Hospital Universitario De La Samaritana - H.U.S. No Avalado                                            1
Asociación De Profesionales En Administración Pública, Municipal Y Regional - Aspapmur No Avalado      1
Cadena Productiva De Plantas Medicinales Y Aromáticas Del Departamento De Risaralda No Avalado         1
Organizacion De Estados Iberoamericanos Oei Avalado                                                    1
Name: Instituciones, Length: 1442, dtype: int64
In [63]:
dfgi.head(10)
Out[63]:
Universidad Nacional De Colombia Avalado                    621
Universidad De Antioquia Avalado                            262
Universidad Del Valle Avalado                               190
Universidad De Los Andes Avalado                            159
Universidad Pedagógica Y Tecnológica De Colombia Avalado    155
Universidad Distrital Francisco José De Caldas Avalado      124
Universidad Tecnológica De Pereira Avalado                  117
Pontificia Universidad Javeriana Avalado                    112
Universidad De Cartagena Avalado                             99
Servicio Nacional De Aprendizaje Sena Avalado                97
Name: Instituciones, dtype: int64
In [64]:
dfgi=dfgi.head(10)
plot = dfgi.plot.pie(y='grupo', figsize=(5, 5))
In [65]:
#%%shell
#jupyter nbconvert --to html /EDA_instituciones_clusters.ipynb